"""
数据计算-distinct方法
方法可以对数据源中的每一个元素进行去重操作
"""
from pyspark import SparkConf,SparkContext
from pyspark.sql import SparkSession
import os
os.environ['PYSPARK_PYTHON'] = "D:/dev/python/python310/python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("distinct")
sc = SparkContext(conf=conf)
# 创建 RDD
rdd = sc.parallelize([1, 2, 3, 4, 5, 1, 2, 3])
# distinct 方法
# distinct 方法可以对数据源中的每一个元素进行去重操作
rdd2 = rdd.distinct()
print(rdd2.collect())
sc.stop()